北大研究团队提出凸面镜反射场景语义分割UDA,超越基线10个点!
©PaperWeekly 原创 · 作者 | 石永杰
单位 | 北京大学智能学院
研究方向 | 计算机视觉
论文链接:
关键词:
研究背景
近年来,随着自动驾驶和智能交通的快速发展,如何智能地理解凸面镜反射的场景是一个重要的问题。然而 CNN 在语义分割方面取得了巨大的成就主要归功于利用大量标注数据的监督学习,然而人类在像素级的标注上所花费的时间和精力是巨大的。无监督领域适应方法(UDA)旨在将知识从标签丰富的源域转移到标签稀少的目标域,从而减少源域和目标域之间的域差距。
然而,已有方法重在缓解由渲染图像和真实图像或不同城市之间的风格带来的领域差异。对于正常图像和凸面镜反射图像而言,他们的差异主要体现在几何外观上,即凸面镜反射图像具有较大的畸变,而正常图像则没有。因此,以前的主要解决由风格差异带来域差异的无监督域适应方法,并不完全适用于解决由几何外观不同所带来的域差异。
为了便于研究凸面镜反射图像的语义分割,作者在北京大学校园内采集数据,并贡献了一个数据集 Convex Mirror Reflection Dataset(CMR1K)。CMR1K 包含 268 张带有密集像素级语义注释的图像。实验结果表明,作者的方法在不同的源域和不同的骨干网络上都优于基线和以前的 UDA 方法。
▲ 表1
2.1 模拟凸面镜的径向畸变
结合式 26、27 和 28,可以得到:
2.5 总变换表示
结合式 29、12 和 1,可以得到:
凸面镜反射场景的无监督预适应语义分割
▲ 图5 北大研究人员针对凸面镜无监督域适应语义分割问题提出的算法框架
为了使合成图像在几何外观上接近真实图像,一个直观的想法是使用判别器对输入空间中的合成图像和真实图像进行对抗学习。然而,在这种情况下,判别器可能只关注内容信息,而忽略了更重要的几何信息。为了解决这个问题,本章对输入图像进行边缘提取,并对提取的边缘图进行判别。边缘提取可以描述为:
与从原始图像中提取的边缘图相比,语义边界的边缘更加清晰。这些清晰的边缘具有强烈的几何信息,对于指导变形估计器预测畸变参数有着重要的作用。在此基础上,本章从分割结果中提取语义边界并对其进行判别。语义边界可以表示为:
熵最小化方法旨在将目标输出概率图的熵最小化,通过模仿源域预测的过度自信行为减少域差异。引入熵最小化技术另一个目的是减少目标分割结果的离散化,从而提取清晰的语义边界,以便于对其进行对抗学习。事实上,AdvEnt 提出了一种间接的基于加权自信息的对齐方法。加权的自信息被定义为:
▲ 图6 作者用三种不同规格的凸面镜在北大校园内采集数据
由于该工作是第一个理解凸面镜反射场景的工作,之前没有与凸面镜反射场景有关的数据集。为了促进 UDA 对凸面镜反射的街道场景进行语义分割的研究,作者在北京大学校园内采集数据,并贡献了一个数据集 CMR1K。
CMR1K 包含 1009 张凸面镜反射图像,其中 268 张图像有密集的像素级语义注释。图 7 中可以看到每个类别的精细标注的像素数量。图 8 显示了注释的数据的一些例子。CMR1K 的细节在下表中显示。
▲ 图7 CMR1K 中精细标注的像素数量(Y轴)及其相关类别(X轴)
▲ 图8 北大校园内采集的数据
▲ 表2 CMR1K 数据集细节
5.1 实验设定
在 UDA 的设置下,提出的 UDA 模型是用标记的源数据和未标记的目标数据来训练的。标记的目标数据的结果被用来评估其性能。CMR1K 作为目标域,其中 741 张未标记的图像用于训练,268 张已标记的数据用于验证提出的算法。对于源域, 分别选择 Cityscapes、IDD和 GTA5。
5.2 方法整体效果分析
下图显示了分割结果的可视化。也可以看出,与基线相比,作者的方法在结构化类别上有更好的分割效果。例如,汽车、 建筑物和电线杆即使严重变形也能被相对准确地预测出来。
▲ 图9 不同方法的分割结果。可以看出,作者的方法明显优于基线和以前的方法。
以 ResNet-101 骨干网为例,作者的方法比基于特征对抗的 AdaptSeg 和基于自信息对抗的 AdvEnt 分别多出 9.02% 和 3.28%。这表明,关于中间特征和自我信息的 对抗性方法不能有效地缓解正常和凸面镜反射图像之间的领域差距。与自我训练方法相比,作者的方法比 BDL和 LTIR分别多出 4.97% 和 6.72% 的 IoU。这可能是由于正常源域和扭曲的目标域之间在几何外观上的差异,这会导致生成非常嘈杂伪标签,进而导致模型在错误的方向上训练。
一般来说,传统的解决风格差异的方法在处理由几何外观差异引起的领域差距时并不有效。为了缓解这种现象,作者手动合成一系列凸面镜反射数据,即随机生成变形参数,用设计好的 CMSL 离线合成凸面镜数据,将这些数据设置为源域,并再次训练之前的方法。称这种方法为“原始方法 +CMSL”。
可以看出,基于自我训练的方法和基于对抗性学习的方法在加入 CMSL 后都得到了性能的提升。尽管如此,作者的方法仍然超过了添加 CMSL 模块的方法。下图显示了合成的凸面镜反射图像和真实图像。
此外,作者还用 ResNet-101 分别对 IDD→CMR1K 和 GTA5→CMR1K 进行了实验,结果见下表。可以看出,作者的方法也超过了基线和以前的方法, 包括” 以前的方法 +CMSL”。
▲ 图10 真实的凸面镜反射图像(第一和第三行)和相应的使用估计变形参数的合成凸面镜 反射图像(第二和第四行)。可以看出,合成图像在几何外观上与真实图像很接近
▲ 表5 以 ResNet-101作为骨干网络,作者的方法和以前的方法在从 IDD到 CMR1K 的适应性上的性能比较
▲ 表6 以 ResNet-101作为骨干网络,作者的方法和以前的方法在从 GTA5到 CMR1K 的适应性上的性能比较。
5.3 消融实验
不同组件的有效性。本节将分别验证提出的框架中不同组件的有效性,即边缘上的 对抗性适应、语义边界上的对抗性适应、熵最小化和风格转移。实验结果显示在下表中。从下表可以看出,当使用边缘适应而不使用语义边界适应和熵最小化时,结果是 76.51%,相对于添加了所有组件的设置(最后一行),准确性下降了 1.63%。
当使用语义边界适应而不是边缘适应时,mIoU 可以达到 73.4%,与添加所有组件相比,准确性下降了 4.74%。这表明,边缘适应比语义边界适应更有优势。同时,在语义边界适应中加入熵最小化(表 7 的第三行)将进一步改善分割结果。这可能是因为熵最小化可以减少分割结果的离散性,这反过来又增强了清晰的语义边界,提高了对抗性学习效果。第四行显示了不添加风格转移的实验结果,可以看出不添加风格转移与添加所有组件上相比,有 0.55% 的下降。
▲ 表7 对本文提出框架的不同组件进行消融研究
从下表可以看出,当合成图像只包含径向畸变而没有透视畸变时(第一行),mIoU 可以达到 74.48%。与包含所有变形的实验结果相比(表 8 的最后一行),mIoU 减少了 3.66%。当合成图像包含透视畸变但不包含径向畸变时(表 8 的第 二行),mIoU 为 69.33%。相对于包含所有畸变的实验结果,准确率下降了 8.81%。这 表明径向畸变比透视畸变能更有效地减少域差距。下图显示了使用不同种类的变形进行分割的结果的可视化。
自动驾驶往往涉及对周围环境的感知,而凸面镜可以提供额外的信息,帮助做出驾驶决策。然而,凸面镜图像的严重失真导致现有的理解反射场景的方法精度很低,不能满足实际应用需求。
来自北京大学的研究团队基于凸面镜成像的几何特性提出了凸面镜的在线模拟层 CMSL,并将其嵌入到设计的框架中。通过对输入空间的边缘和输出空间的语义边界进 行对抗性适应,使合成的凸面镜图像在几何外观上与真实图像相似,从而减少它们之间的领域差距,提高场景理解的准确性。
由于之前没有凸面镜反射场景的数据集,作者在北京大学校园内采集数据并建立了第一个凸面镜反射场景数据集 CMR1K,以支持凸面镜的研究。大量的实验表明,作者的算法可以大大超越基线和以前的 UDA 方法,这将对自动驾驶、 智能交通和其他潜在的应用有很大帮助。
参考文献
AdvEnt: ADVENT: Adversarial Entropy Minimization for Domain Adaptation in Semantic Segmentation, CVPR2019:https://openaccess.thecvf.com/content_CVPR_2019/papers/Vu_ADVENT_Adversarial_Entropy_Minimization_for_Domain_Adaptation_in_Semantic_Segmentation_CVPR_2019_paper.pdf
AdaptSeg: Learning to Adapt Structured Output Space for Semantic Segmentation, CVPR2018:https://openaccess.thecvf.com/content_cvpr_2018/papers/Tsai_Learning_to_Adapt_CVPR_2018_paper.pdf
LTIR: Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation, CVPR2020(https://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Learning_Texture_Invariant_Representation_for_Domain_Adaptation_of_Semantic_Segmentation_CVPR_2020_paper.pdf)_Minimization_for_Domain_Adaptation_in_Semantic_Segmentation_CVPR_2019_paper.pdf)
AdaptSeg: Learning to Adapt Structured Output Space for Semantic Segmentation, CVPR2018:https://openaccess.thecvf.com/content_cvpr_2018/papers/Tsai_Learning_to_Adapt_CVPR_2018_paper.pdf
LTIR: Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation, CVPR2020:https://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Learning_Texture_Invariant_Representation_for_Domain_Adaptation_of_Semantic_Segmentation_CVPR_2020_paper.pdf
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧